在评估临床机器学习模型的性能时,必须考虑部署人群。当观察到的标签患者的人群只是部署人群的一部分(选择标签)时,对观察到的人群的标准模型绩效估计可能会产生误导。在这项研究中,我们描述了三类的标签选择,并模拟了五个有因果关系的场景,以评估特定选择机制如何偏向一套常见的二进制机器学习模型性能指标。 Simulations reveal that when selection is affected by observed features, naive estimates of model discrimination may be misleading. When selection is affected by labels, naive estimates of calibration fail to reflect reality.我们从因果推理文献中借用传统的加权估计器,发现当正确指定选择概率时,它们会恢复全部人口估计。然后,我们解决了监视部署的机器学习模型的性能的现实任务,该模型的相互作用与临床医生相互作用并影响标签的选择机制。我们训练三个机器学习模型来标记低收益实验室的诊断,并模拟它们减少浪费实验室利用的预期结果。我们发现,对观察到的人群的幼稚估计值降低了20%。这样的差异可能足够大,可以导致成功终止成功的临床决策支持工具。我们提出了一个更改的部署程序,该程序将注入随机化的注入随机化与传统加权估计相结合,并发现其恢复了真正的模型性能。
translated by 谷歌翻译